地面和卫星跨视图图像合成最近引起了极大的关注,因为它在虚拟现实,仿真,跨视图匹配和数据增强等中的潜在应用。任务是从给定的观点和两个视图之间的相对姿势合成目标视图图像。综合的信息不仅可以在视图之间表现出几何固定的场景结构,而且还保持了对现实世界数据的高视觉保真度。跨视图图像综合是一项非常明显的挑战,并且本质上不可能学习任务。此组合性主要源于急剧的观点变化,这导致图像内容和视觉特征的最小视野(FOV)重叠,severe遮挡和较大的差异。跨视图中的初步作品主要依赖于条件生成的对抗网络[20]。其中一些专注于在给定的卫星贴片上生成圆形的地面视图,采用高级语义或上下文进行监督[19、24、25、42、54]。最近的搜索[14,22,33]进一步证明,将3D几何形状纳入学习过程可以显着提高生成的地面视图图像的质量。但是,所有这些作品都将任务作为确定性的图像到图像翻译,而地面和卫星跨视图合成本质上是一个概率的一对一问题。使用视觉模型的卓越力量,例如剪辑[23],大多数最近的研究都遵循文本图像生成的道路。扩散模型已成为深层生成模型的强大新家庭,并实现了生成任务的最新结果,尤其是在图像发生[3,7,40]中。最近的潜在扩散模型(LDM)[3]使任何提示中的高质量图像的概率生成,使其成为对地面和卫星交叉综合任务中不确定性进行建模的最佳选择。Zero123 [17]通过将图像剪辑编码和频率嵌入式相机姿势串联来准备带有相机姿势信息的图像条件的方法。然后将其用作调节表示预训练
主要关键词